最近,使用自动编码器(由使用神经网络建模的编码器,渠道和解码器组成)的通信系统的端到端学习问题最近被证明是一种有希望的方法。实际采用这种学习方法面临的挑战是,在变化的渠道条件(例如无线链接)下,它需要经常对自动编码器进行重新训练,以保持低解码错误率。由于重新培训既耗时又需要大量样本,因此当通道分布迅速变化时,它变得不切实际。我们建议使用不更改编码器和解码器网络的快速和样本(几射击)域的适应方法来解决此问题。不同于常规的训练时间无监督或半监督域的适应性,在这里,我们有一个训练有素的自动编码器,来自源分布,我们希望(在测试时间)使用仅使用一个小标记的数据集和无标记的数据来适应(测试时间)到目标分布。我们的方法着重于基于高斯混合物网络的通道模型,并根据类和组件条件仿射变换制定其适应性。学习的仿射转换用于设计解码器的最佳输入转换以补偿分布变化,并有效地呈现在接近源分布的解码器输入中。在实际MMWAVE FPGA设置以及无线设置共有的许多模拟分布变化上,使用非常少量的目标域样本来证明我们方法在适应时的有效性。
translated by 谷歌翻译
This paper describes several improvements to a new method for signal decomposition that we recently formulated under the name of Differentiable Dictionary Search (DDS). The fundamental idea of DDS is to exploit a class of powerful deep invertible density estimators called normalizing flows, to model the dictionary in a linear decomposition method such as NMF, effectively creating a bijection between the space of dictionary elements and the associated probability space, allowing a differentiable search through the dictionary space, guided by the estimated densities. As the initial formulation was a proof of concept with some practical limitations, we will present several steps towards making it scalable, hoping to improve both the computational complexity of the method and its signal decomposition capabilities. As a testbed for experimental evaluation, we choose the task of frame-level piano transcription, where the signal is to be decomposed into sources whose activity is attributed to individual piano notes. To highlight the impact of improved non-linear modelling of sources, we compare variants of our method to a linear overcomplete NMF baseline. Experimental results will show that even in the absence of additional constraints, our models produce increasingly sparse and precise decompositions, according to two pertinent evaluation measures.
translated by 谷歌翻译
We introduce a novel way to incorporate prior information into (semi-) supervised non-negative matrix factorization, which we call differentiable dictionary search. It enables general, highly flexible and principled modelling of mixtures where non-linear sources are linearly mixed. We study its behavior on an audio decomposition task, and conduct an extensive, highly controlled study of its modelling capabilities.
translated by 谷歌翻译
Audio Spectrogram Transformer models rule the field of Audio Tagging, outrunning previously dominating Convolutional Neural Networks (CNNs). Their superiority is based on the ability to scale up and exploit large-scale datasets such as AudioSet. However, Transformers are demanding in terms of model size and computational requirements compared to CNNs. We propose a training procedure for efficient CNNs based on offline Knowledge Distillation (KD) from high-performing yet complex transformers. The proposed training schema and the efficient CNN design based on MobileNetV3 results in models outperforming previous solutions in terms of parameter and computational efficiency and prediction performance. We provide models of different complexity levels, scaling from low-complexity models up to a new state-of-the-art performance of .483 mAP on AudioSet. Source Code available at: https://github.com/fschmid56/EfficientAT
translated by 谷歌翻译
在本文中,我们提出了一个用于计算插值分解(ID)的概率模型,其中观察到的矩阵的每一列都有其自身的优先级或重要性,因此分解的最终结果可以找到一组代表该功能的特征,这些功能代表了该功能整个功能以及所选功能的优先级也比其他功能更高。这种方法通常用于低级别近似,特征选择和提取数据中的隐藏模式,其中矩阵因子是与每个数据维度相关的潜在变量。应用贝叶斯推理的Gibbs采样用于进行优化。我们评估了现实世界数据集上的拟议模型,包括十个中国A股票股票,并证明了带有干预措施(IID)的拟议的贝叶斯ID算法(IID)与现有贝叶斯ID算法的可比较重建错误,同时选择具有更高分数或优先级的特征。
translated by 谷歌翻译
概念诱导是基于正式的逻辑推理在描述逻辑上的,已在本体工程中使用,以从基本数据(ABOX)图创建本体(Tbox)公理。在本文中,我们表明它也可以用来解释数据差异,例如在可解释的AI(XAI)的背景下,我们表明它实际上可以以对人类观察者有意义的方式进行。我们的方法利用了从Wikipedia类别层次结构策划的大型层次结构,作为背景知识。
translated by 谷歌翻译
节奏是复杂的结构,从对立的复合物的开始一直在推动音乐,直到今天。检测此类结构对于许多MIR任务,例如音乐分析,关键检测或音乐分割至关重要。但是,自动节奏检测仍然具有挑战性,主要是因为它涉及和谐,语音领导和节奏等高级音乐元素的结合。在这项工作中,我们提出了符号分数的图表表示,作为解决节奏检测任务的中间手段。我们使用图形卷积网络将节奏检测作为不平衡的节点分类问题。我们获得了与最新技术大致相当的结果,并且我们提出了一个模型,该模型能够以多个粒度的粒度进行预测,从单个音符到节拍,这要归功于良好的注释,注释。此外,我们的实验表明,图形卷积可以学习有助于节奏检测的非本地特征,从而使我们摆脱了必须设计编码非本地环境的专业特征。我们认为,这种建模音乐得分和分类任务的一般方法具有许多潜在的优势,而不是此处介绍的具体识别任务。
translated by 谷歌翻译
当前的解释应用于音乐数据的深度学习系统的方法可在低级功能空间中,例如,通过突出钢琴卷中的频谱图或时机垃圾箱中的潜在相关时间频率箱。这可能很难理解,尤其是对于没有技术知识的音乐学家而言。为了解决这个问题,我们专注于基于高级音乐概念的更具人为友好的解释。我们的研究针对经过训练的系统(事后解释)并探讨了两种方法:一种受监督的方法,用户可以定义音乐概念并测试它是否与系统相关;以及无监督的内容,其中包含相关概念的音乐摘录将自动选择并给予用户进行解释。我们在现有的符号作曲家分类系统上展示了这两种技术,展示其潜力并突出其内在局限性。
translated by 谷歌翻译
在许多深度学习的应用领域中,缺乏大型标记的数据集仍然是一个重大挑战。研究人员和从业人员通常求助于转移学习和数据增强以减轻此问题。我们通过自然语言查询(Dcase 2022 Challenge的任务6B)在音频检索的背景下研究这些策略。我们提出的系统使用预训练的嵌入模型将记录和文本描述投影到共享的音频捕获空间中,其中不同模式的相关示例接近。我们在音频和文本输入上采用各种数据增强技术,并通过基于顺序的模型优化系统地调整其相应的超参数。我们的结果表明,使用的增强策略降低了过度拟合并提高检索性能。我们进一步表明,在AudioCaps数据集上进行预训练系统会带来其他改进。
translated by 谷歌翻译
用于标记和分类声信号的标准机器学习模型无法处理训练过程中未见的类。通过基于适应性的类描述来预测类,零射击(ZS)学习克服了这一限制。这项研究旨在研究基于自我注意力的音频嵌入体系结构对ZS学习的有效性。为此,我们将最近的贴布频谱变压器与两个经典的卷积体系结构进行了比较。我们在三个任务和三个不同的基准数据集上评估了这三个架构:在Audioset上的通用标记,ESC-50上的环境声音分类以及OpenMIC上的仪器标记。我们的结果表明,基于自我注意的嵌入方法的表现都优于所有这些设置中的卷积架构。通过相应地设计培训和测试数据,我们观察到,当训练和新测试类之间的“语义距离”很大时,预测性能会大大受到影响,这种效果值得进行更详细的研究。
translated by 谷歌翻译